Neural Radiance Fields (NeRF) have demonstrated superior novel view synthesis performance but are slow at rendering. To speed up the volume rendering process, many acceleration methods have been proposed at the cost of large memory consumption. To push the frontier of the efficiency-memory trade-off, we explore a new perspective to accelerate NeRF rendering, leveraging a key fact that the viewpoint change is usually smooth and continuous in interactive viewpoint control. This allows us to leverage the information of preceding viewpoints to reduce the number of rendered pixels as well as the number of sampled points along the ray of the remaining pixels. In our pipeline, a low-resolution feature map is rendered first by volume rendering, then a lightweight 2D neural renderer is applied to generate the output image at target resolution leveraging the features of preceding and current frames. We show that the proposed method can achieve competitive rendering quality while reducing the rendering time with little memory overhead, enabling 30FPS at 1080P image resolution with a low memory footprint.
translated by 谷歌翻译
We present a simple yet effective end-to-end Video-language Pre-training (VidLP) framework, Masked Contrastive Video-language Pretraining (MAC), for video-text retrieval tasks. Our MAC aims to reduce video representation's spatial and temporal redundancy in the VidLP model by a mask sampling mechanism to improve pre-training efficiency. Comparing conventional temporal sparse sampling, we propose to randomly mask a high ratio of spatial regions and only feed visible regions into the encoder as sparse spatial sampling. Similarly, we adopt the mask sampling technique for text inputs for consistency. Instead of blindly applying the mask-then-prediction paradigm from MAE, we propose a masked-then-alignment paradigm for efficient video-text alignment. The motivation is that video-text retrieval tasks rely on high-level alignment rather than low-level reconstruction, and multimodal alignment with masked modeling encourages the model to learn a robust and general multimodal representation from incomplete and unstable inputs. Coupling these designs enables efficient end-to-end pre-training: reduce FLOPs (60% off), accelerate pre-training (by 3x), and improve performance. Our MAC achieves state-of-the-art results on various video-text retrieval datasets, including MSR-VTT, DiDeMo, and ActivityNet. Our approach is omnivorous to input modalities. With minimal modifications, we achieve competitive results on image-text retrieval tasks.
translated by 谷歌翻译
用于对象检测的常规知识蒸馏(KD)方法主要集中于同质的教师学生探测器。但是,用于部署的轻质检测器的设计通常与高容量探测器显着不同。因此,我们研究了异构教师对之间的KD,以进行广泛的应用。我们观察到,异质KD(异核KD)的核心难度是由于不同优化的方式而导致异质探测器的主链特征之间的显着语义差距。常规的同质KD(HOMO-KD)方法遭受了这种差距的影响,并且很难直接获得异性KD的令人满意的性能。在本文中,我们提出了异助剂蒸馏(Head)框架,利用异质检测头作为助手来指导学生探测器的优化以减少此间隙。在头上,助手是一个额外的探测头,其建筑与学生骨干的老师负责人同质。因此,将异源KD转变为同性恋,从而可以从老师到学生的有效知识转移。此外,当训练有素的教师探测器不可用时,我们将头部扩展到一个无教师的头(TF-Head)框架。与当前检测KD方法相比,我们的方法已取得了显着改善。例如,在MS-COCO数据集上,TF-Head帮助R18视网膜实现33.9 MAP(+2.2),而Head将极限进一步推到36.2 MAP(+4.5)。
translated by 谷歌翻译
网络安全漏洞信息通常由多个渠道记录,包括政府漏洞存储库,个人维护的漏洞收集平台或漏洞披露的电子邮件列表和论坛。从不同渠道整合脆弱性信息可以使全面的威胁评估和快速部署到各种安全机制。但是,当今实体一致性技术的局限性阻碍了自动收集此类信息的努力。在我们的研究中,我们注释了第一个网络安全域实体对齐数据集并揭示安全实体的独特特征。基于这些观察结果,我们提出了第一个网络安全实体对准模型CEAM,该模型CAM,该模型为基于GNN的实体比对配备了两种机制:不对称的掩盖聚集和分区的注意力。网络安全域实体比对数据集的实验结果表明,CEAM明显优于最先进的实体比对方法。
translated by 谷歌翻译
姿势注册在视觉和机器人技术中至关重要。本文重点介绍了无初始化姿势注册的挑战性任务,最高为7DOF,用于均质和异质测量。虽然最近基于学习的方法显示了使用可区分求解器的希望,但它们要么依赖于启发式定义的对应关系,要么易于局部最小值。我们提出了一个可区分的相关(DPC)求解器,该求解器是全球收敛性且无对应的。当与简单的特征提取网络结合使用时,我们的一般框架DPCN ++允许使用任意初始化的多功能姿势注册。具体而言,特征提取网络首先从一对均质/异质测量值中学习致密特征网格。然后将这些特征网格转换为基于傅立叶变换和球形径向聚集的翻译和比例不变频谱表示形式,将翻译转换和从旋转中脱钩。接下来,使用DPC求解器在频谱中独立有效地估计旋转,比例和翻译。整个管道都是可区分和训练的端到端。我们评估了DCPN ++在多种注册任务上,以不同的输入方式,包括2D Bird的视图图像,3D对象和场景测量以及医疗图像。实验结果表明,DCPN ++的表现优于经典和基于学习的基础线,尤其是在部分观察到的异质测量方面。
translated by 谷歌翻译
本文研究基于单眼图像的类别级对象构成估计。姿势感知的生成模型的最新进展为解决这一具有挑战性的任务使用分析铺平了道路。这个想法是依次更新生成模型的一组潜在变量,例如,姿势,形状和外观,直到生成的图像最能与观察结果一致为止。但是,收敛和效率是该推理程序的两个挑战。在本文中,我们从视觉导航的角度更深入地研究了分析的推断,并研究了该特定任务的良好导航策略。我们通过在收敛,鲁棒性和效率方面进行彻底比较,评估三种不同的策略,包括梯度下降,增强学习和模仿学习。此外,我们表明一种简单的混合方法会导致有效而有效的解决方案。我们进一步将这些策略与最先进的方法进行了比较,并在利用现成的姿势感知生成模型的合成和现实数据集上展示了卓越的性能。
translated by 谷歌翻译
随着预先训练模型的巨大成功,Pretrain-Then-Finetune范式已被广泛采用下游任务,以获得源代码的理解。但是,与昂贵的培训从头开始培训,如何将预先训练的模型从划痕进行有效地调整到新任务的训练模型尚未完全探索。在本文中,我们提出了一种桥接预先训练的模型和与代码相关任务的方法。我们利用语义保留的转换来丰富下游数据分集,并帮助预先接受的模型学习语义特征不变于这些语义上等效的转换。此外,我们介绍课程学习以易于努力的方式组织转换的数据,以微调现有的预先训练的模型。我们将我们的方法应用于一系列预先训练的型号,它们在源代码理解的任务中显着优于最先进的模型,例如算法分类,代码克隆检测和代码搜索。我们的实验甚至表明,在没有重量训练的代码数据上,自然语言预先训练的模型罗伯塔微调我们的轻质方法可以优于或竞争现有的代码,在上述任务中进行微调,如Codebert和Codebert和GraphCodebert。这一发现表明,代码预训练模型中仍有很大的改进空间。
translated by 谷歌翻译
单眼视觉惯性进程(VIO)是机器人和自主驾驶中的关键问题。传统方法基于过滤或优化解决了此问题。在完全可解释的同时,他们依靠手动干扰和经验参数调整。另一方面,基于学习的方法可以进行端到端的培训,但需要大量的培训数据来学习数百万个参数。但是,非解剖和重型模型阻碍了概括能力。在本文中,我们提出了一个完全可解释的,可解释的鸟眼视图(BEV),用于具有本地平面运动的机器人的VIO模型,可以在没有深神经网络的情况下进行训练。具体而言,我们首先采用无知的卡尔曼滤波器作为可区分的层来预测音高和滚动,其中学会了噪声的协方差矩阵以滤除IMU原始数据的噪声。其次,采用了精制的音高和滚动,以使用可区分的摄像头投影来检索每个帧的重力对齐的BEV图像。最后,利用可区分的姿势估计器来估计BEV框架之间的剩余3 DOF姿势:导致5 DOF姿势估计。我们的方法允许学习通过姿势估计损失监督的协方差矩阵,表现出优于经验基准的绩效。关于合成和现实世界数据集的实验结果表明,我们的简单方法与最先进的方法具有竞争力,并在看不见的场景上很好地概括了。
translated by 谷歌翻译
许多最近的作品已经提出了培训具有本地鲁棒性属性的分类器的方法,这可以针对大多数投入证明可以消除逃离攻击的类别,但并非所有输入。由于数据分发Shift在安全应用程序中非常常见,因此通常观察到恶意软件检测,因此本地鲁棒性无法保证在部署分类器时的未经持续输入。因此,更希望强制实施所有输入的全局鲁棒性属性,这严格强于局部鲁棒性。在本文中,我们为满足全球鲁棒性属性的培训分类器提供了一种框架和工具。我们定义了全局稳健性的新概念,更适合安全分类器。我们设计一个新颖的助推器机构训练框架,以实施全球鲁棒性属性。我们将Classifier构建为逻辑规则的集合,并设计一个新的验证者来验证属性。在我们的训练算法中,助推器增加了分类器的容量,并且固定器在经次引导的电感合成后验证了验证的全局鲁棒性属性。我们表明我们可以培训分类器来满足三个安全数据集的不同全局鲁棒性属性,甚至同时多个属性,对分类器的性能进行适度影响。例如,我们训练Twitter垃圾邮件帐户分类器以满足五个全局鲁棒性属性,而真正的阳性率下降5.4%,而假阳性率的增加0.1%,而不是不满足任何财产的基线XGBoost模型。
translated by 谷歌翻译
Few Shot Instance Segmentation (FSIS) requires models to detect and segment novel classes with limited several support examples. In this work, we explore a simple yet unified solution for FSIS as well as its incremental variants, and introduce a new framework named Reference Twice (RefT) to fully explore the relationship between support/query features based on a Transformer-like framework. Our key insights are two folds: Firstly, with the aid of support masks, we can generate dynamic class centers more appropriately to re-weight query features. Secondly, we find that support object queries have already encoded key factors after base training. In this way, the query features can be enhanced twice from two aspects, i.e., feature-level and instance-level. In particular, we firstly design a mask-based dynamic weighting module to enhance support features and then propose to link object queries for better calibration via cross-attention. After the above steps, the novel classes can be improved significantly over our strong baseline. Additionally, our new framework can be easily extended to incremental FSIS with minor modification. When benchmarking results on the COCO dataset for FSIS, gFSIS, and iFSIS settings, our method achieves a competitive performance compared to existing approaches across different shots, e.g., we boost nAP by noticeable +8.2/+9.4 over the current state-of-the-art FSIS method for 10/30-shot. We further demonstrate the superiority of our approach on Few Shot Object Detection. Code and model will be available.
translated by 谷歌翻译